Loading...
机构名称:
¥ 2.0

大语言模型(LLM)的推理能力是至关重要的能力,尤其是在复杂的决策任务中。显示LLMS推理能力的一项重要任务是代码时间复杂性预测,其中包含各种复杂因素,例如变量和条件循环的输入范围。由于数据,语言限制有限和标签不足,因此无法提供严格评估的基准。他们不考虑基于Int-of表示的时间复杂性,而仅评估预测是否属于同一类,缺乏对正确预测的距离的衡量标准。为了解决这些规定,我们介绍了CodeComplex,这是第一个强大而广泛的数据集,旨在评估LLMS在预测代码时间复杂性方面的推理能力。CodeComplex构成了4,900个Java代码和同等数量的Python代码,克服语言和标记约束,并通过算法专家面板的输入特性仔细注释了复杂性标签。此外,我们提出了专门的评估指标,以推理复杂性预测任务,从而对LLMS的推理能力进行更精确,更可靠的评估。我们公开发布数据集和基线模型1,以促进相关的(NLP,SE和PL)通信,以利用和参与这项研究。

arxiv:2401.08719v2 [CS.SE] 2024年12月24日

arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第1页

arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第2页

arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第3页

arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第4页

arxiv:2401.08719v2 [CS.SE] 2024年12月24日PDF文件第5页